Анализ оттока клиентов банка

Содержание проекта

Описание проекта

В последнее время в банке наблюдается драматический рост оттока клиентов, что начинает вызывать беспокойство и угрожать существованию банка. Необходимо выделить определенные сегменты клиентов, которые являются наиболее подверженными оттоку, чтобы маркетинговый отдел мог в дальнейшем воздействовать на эти сегменты и снизить отток.

Цель проекта

Описание данных

Датасет bank_scrooge.csv содержит данные о клиентах банка «Метанпром». Банк располагается в Ярославле и областных городах: Ростов Великий и Рыбинск.

Описание столбцов:

План работ

  1. Загрузка и первичное ознакомление с данными
    • загрузка данных
    • ознакомление с данными
    • обработка названий и типов данных в столбцах
    • промежуточный вывод
  2. Предобработка данных
    • обработка пропущенных значений
    • обработка дубликатов
    • обработка выбросов
    • промежуточный вывод
  3. Исследовательский анализ данных
    • исследование распределение клиентов по признакам
    • исследование коррелиции
    • промежуточный вывод
  4. Проверка гипотез
    • Проверка гипотез
    • промежуточный вывод
  5. Сегментации клиентов и их анализ.
    • создание дополнительных столбцов с категоризированными данными
    • сегментация клиентов по признакам
    • сравнение групп клиентов и их приотиризация
  6. Вывод и рекомедации
  7. Презентация

Загрузка и ознакомление с данными

Загрузка данных

Видим, что присутвует немного пропусков age в столбце и много в столбце balance

Промежуточный вывод

  1. В данных есть пропуски в столбцах age и balance, а также сильные выбросы в столбцах balance и salary.
  2. В столбце products находятся клиенты, у которых ноль продуктов банка, но это невозможно.
  3. В столбце salary есть клиенты с очень низкой зарплатой, намного ниже минимального размера оплаты труда (МРОТ). Стоит подробнее изучить эту ситуацию.
  4. Всего в таблице 10 000 записей. Процент клиентов, которые уходят, составляет 18,2%. В дальнейшем мы будем ориентироваться на эту цифру.

Предобработка данных

Обработка пропущенных значений

Мы видим большое кол-во пропусков, а также, что почти все пропуски у клиентов, которые остаются

Мы видим, что клиенты с 0 балансом присутвуют, а значит пропуск это с большой вероятностью не ноль. Также мы видим, что распределение клиентов с заполненым балансом близко к среднему проценту уходящих людей(18.2%). Удалять более 2000 записей с пустыми данными в столбце balance нецелесообразно, поэтому оставим как есть.

Обработка выбросов

Выбросы еще есть в столбце balance и salary, но они уже не такие значительные.

Обработка дубликатов

Мы видим, очень странные данные, а именно:

Из этого можно предположить:

  1. user_id уходящего человека, выдают новому человеку, а уходящего не удаляют из базы при это
  2. user_id дублируется из-за ошибки при записи в БД или при его выдаче

Так как всего дубликатов немного(86), то мы можем удалить их всех.

Промежуточный вывод

  1. В процессе предобработки данных были удалены строки с пропущенными значениями в столбце "age".
  2. Строки с пропущенными значениями в столбце "balance" были оставлены, так как их количество составляет более 2 тысяч. Этот столбец можно использовать для анализа данных, так как средний процент уходящих клиентов среди клиентов с заполненными данными составляет около 23%, что близко к среднему проценту уходящих клиентов по всей таблице.
  3. Большинство выбросов в столбцах "balance", "salary" и "age" были удалены. Осталось немного выбросов, но они уже не такие значительные.
  4. Было ограничено минимальное значение в столбце "salary" примерным МРОТ прошлого года.
  5. В колонке "user_id" присутствуют очень странные дубликаты: первое вхождение дубликата всегда является уходящим клиентом, а второе – всегда остающимся. Во всех дубликатах всего 2 строки. Так как количество таких дубликатов невелико (86), они были удалены.
  6. Возможные причины возникновения дубликатов:
  1. В процессе предобработки было удалено всего 783 строки, что составляет 7,83% от первоначального количества строк. Процент уходящих клиентов изменился незначительно, был 18,2%, теперь 18,05%.

Исследовательский анализ данных

  1. Средний возраст клиента банка около 43 лет
  2. Среднее кол-во продуктов у одного клиента ~1.9
  3. Больше половины клиентов были не активны последние 30 дней
  4. Примерно 68% клиентов имеют кредитную карту банка
  5. Больше половину клиентов имеет высокий кредитный рейтинг (более 850 баллов)

Исследование распределения значений в графиках

Распределение клиентов по кол-ву баллов кредного скоринга

По графикам видно, что при повышении кредитного рейтинга клиента растет процент уходящих людей. Примерно после 940 баллов процент уходящих резко падает, однако это может быть и аномалией из-за малого количества клиентов с количеством баллов более 940.

Клиентов поделим на 3 категории:

  1. От 0 до 820 — в этой категории находятся группы клиентов, у которых средний процент уходящих менее 18,2%.
  2. 820–940 — в этой категории находятся группы клиентов, у которых средний процент уходящих выше 18,2%.
  3. 940+ — в этой категории находятся группы клиентов с очень высоким рейтингом, но при этом средний процент уходящих в ней менее 18,2%.

Распределение клиентов по возрасту

  1. На графике видно, что в промежутке 18–35 процент ушедших клиентов немного выше 18,2%. Отдельно отметим 21, где виден резкий, а до и после резкий спад, это может быть аномалией или вызванной малым кол-вом данных, так как на промежуток от 18 до 22 приходится всего от 10 до 20 значений в год.
  2. Далее, от 35 до 50 лет процент ушедших клиентов немного ниже 18,2%.
  3. После 50 и до 60 лет видно увеличение оттока клиентов и процент ушедших клиентов немного выше 18,2%.
  4. После 60 лет происходит резкий спад процента ушедших клиентов.

Столбец «Возраст» поделим на 4 категории:

Распределение клиентов по приблизительной оценки кол-ва баллов собственности

  1. С увеличением количества баллов собственности процент уходящих клиентов возрастает.
  2. По графикам видно, что значительная часть людей имеет оценку количества баллов собственности равную 0, уровень оттока этой категории составляет 4%.
  3. В категории клиентов с оценкой собственности 1 и 2 балла процент уходящих клиентов выше и составляет 12% и 16% соответственно.
  4. В категории клиентов с 3 и более баллами собственности процент уходящих клиентов выше 18,2%, и чем больше баллов, тем выше процент оттока.
  5. Клиентов с 8 и 9 баллами собственности очень мало, чтобы сделать объективную оценку уходящих, поэтому их отнесем к категории 3+.

Разделим столбец equity на 3 категории:

Распределение клиентов по балансу

По графикам видно, что с увеличением баланса количество уходящих клиентов растет. Это особенно заметно после достижения баланса 400 тысяч и 750 тысяч рублей.

На графиках можно выделить три основные категории клиентов по балансу:

Распределение клиентов по кол-ву продуктов

По графику видно, что с увеличением количества продуктов процент уходящих клиентов растет. Разделим столбец products на категории:

Распределение клиентов по зарплате

График распределения уходящих/оставшихся клиентов в зависимости от заработной платы выглядит достаточно стабильно до значения 220 тысяч рублей. После этого значения наблюдаются резкие скачки вверх и вниз. Также стоит отметить, что в диапазоне от 0 до 100 тысяч рублей процент уходящих клиентов чаще всего составляет около 18,2% или меньше. В диапазоне от 100 до 220 тысяч рублей процент уходящих клиентов чаще всего составляет около 18,2% или больше.

Поделим столбец salary на три категории:

Категоризация данных

Создадим новые столбцы и распределим данные по категория, определеным выше.

Исследование распределения значений в таблицах

Иследование распределения значений в таблицах категоризированных данных

Количество клиентов активных и неактивных примерно равно. По таблице видно, что среди клиентов, которые были неактивны, являются уходящими ~24,3%. Среди клиентов, которые были активны, являются уходящими только ~11,3%.

Кол-во клиентов с кредиткой примерно в 2 раза больше, чем клиентов без кредиток. Среди клиентов без кредиток 25,2% являются уходящими. Среди клиентов с кредиткой 14,8% являются уходящими.

Количество клиентов мужского и женского пола примерно равно. По таблице видно, что среди клиентов мужского пола уходящими являются ~23%. Среди клиентов женского пола уходящими являются 13%.

В городах Ростов и Ярославль процент уходящих клиентов чуть выше среднего и равен 19% и 18,8% соответственно. В Рыбинске процент уходящих клиентов ниже среднего и равен 15,9%.

Иследование распределения значений в таблицах новых категоризированных данных

Также теперь посмотрим на новые столбцы с категоризированными данными

В созданных столбцах с категориальными данными можно отметить следующее:

Кореляция

Мы видим, что параметр churn имеет слабую корреляцию со столбцами equity, balance, products и last_activity. Это подтверждают графики и таблицы, которые расположены выше. Когда значения в этих столбцах увеличиваются, количество уходящих клиентов также увеличивается.

Мы видим, что параметр churn имеет среднюю корреляцию с столбцами equity и balance, а также слабую корреляцию с столбцами products, last_activity. Эти данные подтверждает матрица корреляции, представленная сверху.

Кроме того, в этой таблице можно заметить слабую корреляцию в столбцах score, credit_card и gender. Это подтверждают графики и таблицы, представленные выше. Согласно этим данным, при повышении значений в этих столбцах, количество уходящих клиентов увеличивается. Однако, это не относится к столбцу score.

Промежуточный вывод

Подведем итоги по каждому столбцу:

score / количество баллов кредитного скоринга

В данном столбце видно, что с увеличением количества баллов число уходящих клиентов сначала растет, а затем снижается. Наибольшее количество уходящих клиентов находится в промежутке от 821 до 940 баллов, а средний процент уходящих в этом промежутке составляет 22,7%.

age / возраст

В данном столбце можно выделить две категории: 18-35 и 51-60 лет, с высоким процентом уходящих клиентов (20,7% и 26,9% соответственно).

equity / приблизительная оценка количества баллов собственности

С увеличением количества баллов собственности процент уходящих клиентов возрастает. Это подтверждают графики, сводные таблицы и расчет корреляции. Категория, где клиенты имеют 3 и более баллов собственности, имеет наибольший процент уходящих клиентов (26%). В то же время, категория, где клиенты с 0 баллами собственности, имеет наименьший процент уходящих (4%).

balance / баланс на счете

По графику видно, что с увеличением количества продуктов процент уходящих клиентов немного растет. Это подтверждают графики, сводные таблицы и расчет корреляции. Категория, в которой клиенты с высоким балансом (400-750 тысяч) и очень высоким балансом (750 тысяч и более), имеет высокий процент уходящих клиентов (19,1% и 34,4%).

products / количество продуктов, которыми пользуется клиент

По графику видно, что с увеличением количества продуктов процент уходящих клиентов растет. Это подтверждают графики, сводные таблицы и расчет корреляции. Категория, в которой клиенты имеют 1 продукт банка, имеет наименьший процент уходящих – 7%. Категория, в которой клиенты имеют 2 и 3+ продукта банка, имеет процент уходящих 19% и 39,4% соответственно.

salary / оценочный доход клиента

График распределения уходящих/оставшихся клиентов в зависимости от заработной платы выглядит стабильно до значения 220 тысяч рублей. После этого значения наблюдаются резкие скачки вверх и вниз. Категория, в которой клиенты имеют зарплату 100-220 тысяч, имеет процент уходящих 20%. Остальные категории имеют процент уходящих примерно ~16%. Можно сказать, что уровень заработной платы имеет низкое влияние на процент уходящих.

credit_card / есть ли кредитная карта

Количество клиентов с кредиткой примерно в 2 раза больше, чем клиентов без кредиток. Среди клиентов без кредиток 25,2% являются уходящими. Среди клиентов с кредиткой 14,8% являются уходящими.

city / город

Больше половины клиентов проживают в Ярославле. В городах Ростов и Ярославль процент уходящих клиентов немного выше среднего и равен 19% и 18,8% соответственно. В Рыбинске процент уходящих клиентов ниже среднего и равен 15,9%. Можно сказать, что город проживания почти не влияет на процент уходящих.

gender / пол

Количество клиентов мужского и женского пола примерно одинаково. По таблице видно, что среди клиентов мужского пола уходящими являются ~23%. Среди клиентов женского пола уходящими являются 13%.

last_activity / активный клиент

Количество активных и неактивных клиентов примерно одинаково. По таблице видно, что среди клиентов, которые были неактивны, являются уходящими ~24,3%. Среди клиентов, которые были активны, являются уходящими только ~11,3%.

Вывод Почти все параметры, кроме salary и city, могут оказывать значительное влияние на процент уходящих клиентов при сегментации. Также следует отметить, что при увеличении показателей equity, balance, products, может существенно повысить вероятность ухода клиента.

Предварительный вывод

На данный момент можно предположить, что клиентами банка, которые могут прекратить его использование, являются люди, относящиеся к одной или нескольким из следующих категорий:

То есть, мы можем сказать, что это достаточно обеспеченный человек с хорошим капиталом и ответственным отношением к деньгам. Следовательно, нам необходимо предложить новые продукты и сервисы для этого типа людей. Это могут быть, например, премиальные карты, специальное обслуживание, более выгодные условия для вкладов и различные страховки для имущества.

Также важно напомнить этому человеку о банке, чтобы он захотел продолжить пользоваться им и приобрести новые продукты и сервисы.

Проверка гипотез

Проверим следующие гипотезы:

  1. Присутствует различие дохода между теми клиентами, которые ушли, и теми, которые остались. Колонка salary.
  2. Присутствует различие баланса на счете между теми клиентами, которые ушли, и теми, которые остались. Колонка balance.
  3. Присутствует различие баллов кредитного скоринга между теми клиентами, которые ушли, и теми, которые остались. Колонка score.

Сформулируем нулевую и альтернативную гипотезу для всех:

Для проверки гипотез будем использовать t-тест Стьюдента. Он подходит для сравнения количественных признаков двух независимых выборок с нормальным распределением, что соотвествует нашим данным. Уровень статистических данных установим = 0.01

Промежуточный вывод

  1. Между теми, кто остается, и теми, кто уходит, нет статистической разницы в уровне зарплаты. Средние значения зарплаты в обеих группах примерно равны.
  2. Между теми, кто остается, и теми, кто уходит, есть статистическая разница в балансе на счете. Средние значения баланса на счете у уходящих клиентов почти в 1,5 раза больше.
  3. Между теми, кто остается, и теми, кто уходит, есть статистическая разница в количестве баллов кредитного скоринга. Средние значения количества баллов кредитного скоринга немного выше.

Сегментации клиентов и их анализ

Создадим функцию, которая позволит группировать клиентов по заданным категориям(column_group) и рассчитывать количество клиентов в каждой группе, а также процент уходящих клиентов.

Если необходимо, функция будет добавлять названия колонок к каждой категории и обезличивать сами колонки(rename_columns). Кроме того, к каждой группе можно будет добавить список user_id всех(all_user_id) и/или только уходящих клиентов(churn_user_id).

Также добавим параметры для отсеивания очень маленьких групп(min_count) и групп с низким процентом уходящих клиентов(min_avr).

Так как у нас 10 столбцов, в каждом из которых по несколько категорий, то для поиска нужных группы вручную нам понадобиться много времени, поэтому создадим функцию.

Создадим функцию, которая будет группировать(используя функцию выше fast_group) все сочетания заданных колонок(columns) в заданном количестве(cols) и присоеденять их друг к другу. Остальные параметры в функции такие же, как и в функции(fast_group) выше и нужны для управление ей.

Создание высокоточных групп пользователей из 5 параметров

Ознакомиться с полной таблицей можно по ссылке.

Всего получилось 57 групп, каждая из которых имеет 5 признаков. По таблицам видно, что большинство групп состоит из одинаковых категорий, например: score_seg(821-940), equity_seg(3+) и city(Ярославль), credit_card(1) и тд. Можно сказать, что если взять вместе первые 5 групп, то пользователи в них будут пересекаться. Поэтому для приоритизации групп будем использовать другой способ.

Создадим функцию, которая будет находить наилучшее сочетание групп заданного количества, чтобы получить максимальное количество уникальных id уходящих клиентов. Таким образом, мы сможем определить приоритеты для групп. Однако есть один существенный недостаток этой функции: при работе с большой таблицей и большим количеством заданных групп для поиска, функция может работать очень долго. Поэтому мы будем сначала искать топ-3 группы для начала работы маркетингового отдела.

Данные трех групп имеют 43,4% уходящих клиентов от общего их числа. Каждая группа состоит из чуть более 500 человек и имеет процент ухода клиентов от 50 до 61%. Все три группы имеют категории «кредитный скоринг» (821–940, score) и «оценка баллов собственности» (3 и выше, equity).

Теперь рассмотрим группы подробнее:

  1. Первая группа состоит из людей без кредитной карты, которые не взаимодействовали с банком последние 30 дней. Они имеют средний или высокий кредитный рейтинг от 821 до 940 баллов, высокую оценку баллов собственности (3 и выше) и пользуются двумя продуктами банка.

  2. Вторая группа состоит из мужчин с средним или высоким кредитным рейтингом от 821 до 940 баллов, высокой оценкой баллов собственности (3 и выше), балансом более 750 тысяч и зарплатой от 100 тысяч до 200 тысяч рублей.

  3. Третья группа состоит из клиентов из Ярославля с кредитной картой, которые не взаимодействовали с банком последние 30 дней. Они также имеют средний или высокий кредитный рейтинг от 821 до 940 баллов и высокую оценку баллов собственности (3 и выше).

Создадим график, чтобы посмотреть доли уникальных клиентов в топ-3 выделенных сегментов среди всех клиентов.

По графикам мы видим, что при работе с тремя лучшими выделенными группами, в которые входит всего ~15% клиентов, мы сможем отработать ~43% уходящих клиентов.

Вывод

Признаки влияющие на повышение оттока клиентов:

  1. Увеличение показателей оценки количества баллов собственности (equity, 3 и больше), баланса (balance, от 750 тысяч и выше) и количества продуктов банка (products, 2 и больше) может существенно повысить вероятность ухода клиента.

  2. Кредитный рейтинг (score) также может оказать существенное влияние, если количество баллов будет от 821 до 940.

  3. Если клиент не проявлял активность в банковском приложении в течение последних 30 дней (last_activity), это также может существенно повлиять на отток.

  4. Возраст клиента может оказать среднее влияние, если он находится в диапазоне от 18 до 35 или от 51 до 60 лет.

  5. Пол клиента также может оказать среднее влияние: если он мужской, то вероятность оттока повышается. Кроме того, среднее влияние может оказать доход клиента, если он находится в диапазоне от 100 до 220 тысяч.

Выделенные компактные высокоотточные сегменты:

Было выделено 57 компактных (в среднем 550 человек на группу), высокоточных групп, каждая из которых состоит из 5 признаков. Затем была проведена приоритизация и выявлены 3 группы, которые вместе имеют долю 43,4% от всех уходящих клиентов.

Описание групп:

  1. Первая группа состоит из клиентов без кредитной карты, которые не взаимодействовали с банком в течение последних 30 дней. Они имеют средний или высокий кредитный рейтинг, от 821 до 940 баллов, высокую оценку баллов собственности (3 и выше) и пользуются двумя продуктами банка.

  2. Вторая группа состоит из мужчин со средним или высоким кредитным рейтингом от 821 до 940 баллов, с высокой оценкой баллов собственности (3 и выше), балансом более 750 тысяч рублей и зарплатой от 100 тысяч до 200 тысяч рублей.

  3. Третья группа состоит из клиентов из Ярославля с кредитной картой, которые не взаимодействовали с банком в течение последних 30 дней. Они также имеют средний или высокий кредитный рейтинг от 821 до 940 баллов и высокую оценку баллов собственности (3 и выше).

Проработка этих трех групп может оказать положительное влияние и на другие группы клиентов, поскольку большинство групп имеют схожие наборы признаков.

Ознакомиться с всеми группами можно по ссылке.

Рекомендации

После анализа признаков, которые сильно влияют на отток клиентов, и выделения групп клиентов, мы можем представить себе большинство людей, которые покидают банк. Это, как правило, обеспеченные люди с хорошим капиталом, как в денежном, так и в имущественном плане, а также ответственные в отношении денег и кредитов. Исходя из этого понимания и предыдущих выводов, мы можем дать следующие рекомендации по удержанию клиентов, которые уходят из банка.

  1. Предложить новые виды продуктов для обеспеченных клиентов, например, премиальные карты со специальным обслуживанием.
  2. У большинства клиентов высокий балл оценки имущества, поэтому стоит предложить им различные страховки для автомобилей, квартир и домов.
  3. Добавить новые виды вкладов с более выгодными и удобными условиями, а также возможность инвестировать куда-то еще, учитывая, что клиенты имеют большие суммы на балансе банка.

  4. Предложить различные виды кредитования и сопровождения сделок при покупке недвижимости, так как многие клиенты имеют высокий кредитный рейтинг и большое количество имущества.

  5. Для клиентов с высокой зарплатой стоит добавить больше бонусов, если они пользуются зарплатной картой банка.

  6. Обеспечить удобство использования всех продуктов банка, чтобы клиент не получал множество уведомлений каждый день и мог управлять своими финансами без лишних сложностей.

  7. Расширить поле деятельности банка, увеличить узнаваемость и привязанность к банку, предлагая пользователям различные бонусы и/или сделав единую подписку на сервисы банка и сторонних компаний.

  8. Напоминать клиенту о банке, но деликатно, чтобы он продолжал пользоваться им и заинтересовался новыми продуктами и услугами.

Презентация

Презентация исследования с ключевыми моментами